我们提出了一种为给定视频推荐音乐曲目的方法,反之亦然,基于它们的时间对齐及其在艺术层面上的信件。我们提出了一种自我监督的方法,该方法直接从数据中学习了这一对应,而无需任何人类注释。为了捕获解决任务所需的高级概念,我们建议使用每种模式的变压器网络对视频和音乐信号的长期时间上下文进行建模。实验表明,这种方法强烈胜过不利用时间上下文的替代方案。我们的贡献的结合提高了先前最高现状的检索准确性高达10倍。这种强大的改进使我们能够引入广泛的分析和应用。例如,我们可以根据视觉定义的属性来调节音乐检索。
translated by 谷歌翻译